Mạng neural và Trí tuệ nhân tạo Mạng thần kinh

Bài chính: Mạng neural nhân tạo

Nền tảng

Các mô hình mạng neural trong trí tuệ nhân tạo thường được gọi là các mạng neural nhân tạo; chúng thực chất là các mô hình toán học đơn giản định nghĩa một hàm f : X → Y {\displaystyle f:X\rightarrow Y} . Từ mạng được sử dụng vì hàm này phân rã được thành các thành phần đơn giản hơn kết nối với nhau.

Một loại mô hình mạng neural cụ thể tương ứng với một lớp hàm như vậy. Khả năng học là điều thu hút nhiều quan tâm nhất tới mạng neural.

Cho trước một bài toán cụ thể để giải quyết, và một lớp các hàm F {\displaystyle F} , việc học có nghĩa là sử dụng một tập các quan sát để tìm hàm f ∗ ∈ F {\displaystyle f^{*}\in F} giải được bài toán một cách tốt nhất.

Việc đó đòi hỏi định nghĩa một hàm chi phí C : F → R {\displaystyle C:F\rightarrow \mathbb {R} } sao cho, với lời giải tối ưu f ∗ {\displaystyle f^{*}} , C ( f ∗ ) ≤ C ( f ) {\displaystyle C(f^{*})\leq C(f)} ∀ f ∈ F {\displaystyle \forall f\in F}

Hàm chi phí C {\displaystyle C} là một khái niệm quan trọng trong học máy, do nó là một phép đo khoảng cách tới lời giải tối ưu cho bài toán cần giải quyết. Các thuật toán học tìm kiếm trong không gian lời giải để được một hàm có chi phí nhỏ nhất có thể.

Các loại học

Có ba kiểu học chính, mỗi kiểu mẫu tương ứng với một nhiệm vụ học trừu tượng. Đó là học có giám sát, học không có giám sáthọc tăng cường. Thông thường, loại kiến trúc mạng nào cũng có thể dùng được cho các nhiệm vụ trên.

Học có giám sát

Trong học có giám sát, ta được cho trước một tập ví dụ gồm các cặp ( x , y ) , x ∈ X , y ∈ Y {\displaystyle (x,y),x\in X,y\in Y} và mục tiêu là tìm một hàm f (trong lớp các hàm được phép) khớp với các ví dụ. Nói cách khác, ta muốn tìm ánh xạ mà dữ liệu đầu vào đã hàm ý, với hàm chi phí đo độ không khớp giữa ánh xạ của ta và dữ liệu.

Học không có giám sát

Trong học không có giám sát, ta được cho trước một số dữ liệu x {\displaystyle x} , và hàm chi phí cần được cực tiểu hóa có thể là một hàm bất kỳ của dữ liệu x {\displaystyle x} và đầu ra của mạng, f {\displaystyle f} . Hàm chi phí được quyết định bởi phát biểu của bài toán. Phần lớn ứng dụng nằm trong vùng các bài toán ước lượng như mô hình hóa thống kê, nén, lọc (filtering), blind source seperationphân mảnh (clustering).

Học tăng cường

Trong học tăng cường, dữ liệu x {\displaystyle x} thường không được cho trước mà được tạo ra trong quá trình một agent tương tác với môi trường. Tại mỗi thời điểm t {\displaystyle t} , agent thực hiện hành động y t {\displaystyle y_{t}} và môi trường tạo một quan sát x t {\displaystyle x_{t}} và một chi phí tức thời c t {\displaystyle c_{t}} , theo một quy trình động nào đó (thường là không được biết). Mục tiêu là tìm một sách lược lựa chọn hành động để cực tiểu hóa một chi phí dài hạn nào đó, nghĩa là chi phí tích lũy mong đợi. Quy trình động của môi trường và chi phí dài hạn cho mỗi sách lược thường không được biết, nhưng có thể ước lượng được. Mạng neural nhân tạo thường được dùng trong học tăng cường như là một phần của thuật toán toàn cục. Các bài toán thường được giải quyết bằng học tăng cường là các bài toán điều khiển, trò chơi, và các nhiệm vụ quyết định tuần tự (sequential decision making) khác.

Các thuật toán học

Có nhiều thuật toán có thể dùng cho việc huấn luyện các mô hình mạng neural; hầu hết có thể được xem là áp dụng trực tiếp của lý thuyết tối ưu hóaước lượng thống kê

Phần lớn các thuật toán huấn luyện mạng neural sử dụng một kiểu xuống dốc (gradient descent - tiến dần tới cực tiểu địa phương) nào đó. Điều này được thực hiện bằng cách lấy đạo hàm của hàm chi phí theo các tham số của mạng và thay đổi các tham số đó theo một hướngđược tính toán theo độ dốc (gradient-related direction) để tiến dần tới cực tiểu địa phương của hàm chi phí.

Các phương pháp thường dùng cho huấn luyện mạng neural là: phương pháp tiến hóa, giải thuật luyện kim (simulated annealing), expectation maximisation (cực đại hóa kỳ vọng) và các phương pháp không tham số (non-parametric methods). Xem thêm bài Học máy.

Các tính chất lý thuyết

Năng lực

Một số mô hình lý thuyết của mạng neural đã được phân tích để tính toán một số tính chất, chẳng hạn khả năng lưu trữ tối đa, độc lập với các thuật toán học. Nhiều kỹ thuật ban đầu được phát triển để nghiên cứu các hệ từ trường nhiễu (disordered magnetic systems (spin glasses)) đã được áp dụng thành công cho các kiến trúc mạng neural đơn giản, chẳng hạn mạng perceptron. Công trình nghiên cứu có ảnh hưởng lớn của E. Gardner và B. Derrida đã cho thấy nhiều tính chất thú vị về các perceptron với các trọng số có giá trị là số thực, trong khi nghiên cứu sau này của W. Krauth và M. Mezard đã mở rộng các nguyên lý này cho các trọng số có giá trị 0 hoặc 1.

Các loại mạng neural nhân tạo

Bài chi tiết: Mạng neural nhân tạo